在最近在两人,零和游戏中取得成功的驱动下,人工智能在游戏中的工作越来越重视产生基于平衡策略的算法。但是,这种方法在培养通用游戏或两个以上玩家的能力的玩家中的效果较小,而不是在两人游戏中的零和零游戏中。一个有吸引力的替代方法是考虑自适应算法,以确保相对于修改行为可以实现的方面的强劲表现。这种方法还导致了游戏理论分析,但是在关节学习动力学而不是均衡的代理行为引起的相关性游戏中。我们在一般的顺序决策环境中发展并倡导这一对学习的事后理性理性框架。为此,我们在广泛的游戏中重新检查了介导的平衡和偏差类型,从而获得了更完整的理解和解决过去的误解。我们提出了一组示例,说明了文献中每种平衡的独特优势和劣势,并证明没有可牵引的概念可以包含所有其他概念。这一探究线在与反事实遗憾最小化(CFR)家族中算法相对应的偏差和平衡类的定义中达到顶点,将它们与文献中的所有其他人联系起来。更详细地研究CFR进一步导致相关游戏中合理性的新递归定义,该定义以自然适用于后代评估的方式扩展了顺序合理性。
translated by 谷歌翻译